Aprendizaje on-policy enfocado en decisiones para optimización lineal contextual
Nuevo método de gradiente híbrido para optimización lineal contextual con retroalimentación parcial que reduce el arrepentimiento.
Nuevo método de gradiente híbrido para optimización lineal contextual con retroalimentación parcial que reduce el arrepentimiento.